A Study of Chinese News Headline Classification Based on Keyword Feature Expansion

نویسندگان

چکیده

Abstract Existing work generally classifies news headlines as a matter of short text classification. However, due to the strong domain nature and limited length headlines, their classification results are usually determined by several specific keywords, which makes traditional method ineffective. In this paper, we propose new identify keywords in expand features from sentence level word respectively, finally use convolutional neural networks (CNN) extract classify features. The proposed model was tested on Sogou News Corpus dataset achieved 93.42 $$\%$$ % accuracy.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

study of hash functions based on chaotic maps

توابع درهم نقش بسیار مهم در سیستم های رمزنگاری و پروتکل های امنیتی دارند. در سیستم های رمزنگاری برای دستیابی به احراز درستی و اصالت داده دو روش مورد استفاده قرار می گیرند که عبارتند از توابع رمزنگاری کلیددار و توابع درهم ساز. توابع درهم ساز، توابعی هستند که هر متن با طول دلخواه را به دنباله ای با طول ثابت تبدیل می کنند. از جمله پرکاربردترین و معروف ترین توابع درهم می توان توابع درهم ساز md4, md...

News-Oriented Automatic Chinese Keyword Indexing

In our information era, keywords are very useful to information retrieval, text clustering and so on. News is always a domain attracting a large amount of attention. However, the majority of news articles come without keywords, and indexing them manually costs highly. Aiming at news articles’ characteristics and the resources available, this paper introduces a simple procedure to index keywords...

متن کامل

Chinese Short-Text Classification Based on Topic Model with High-Frequency Feature Expansion

Short text differs from traditional documents in its shortness and sparseness. Feature extension can ease the problem of high sparseness in the vector space model, but it inevitably introduces noise. To resolve this problem, this paper proposes a high-frequency feature expansion method based on a latent Dirichlet allocation (LDA) topic model. High-frequency features are extracted from each cate...

متن کامل

construction and validation of a computerized adaptive translation test (a receptive based study)

آزمون انطباقی رایانه ای (cat) روشی نوین برای سنجش سطح علمی دانش آموزان می باشد. در حقیقت آزمون های رایانه ای با سرعت بالایی به سمت و سوی جایگزین عملی برای آزمون های کاغذی می روند (کینگزبری، هاوسر، 1993). مقاله حاضر به دنبال آزمون انطباقی رایانه ای برای ترجمه می باشد. بدین منظور دو پرسشنامه مشتمل بر 55 تست ترجمه میان 102 آزمودنی و 10 مدرس زبان انگلیسی پخش گردید. پرسشنامه اول میان 102 دانشجوی س...

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: International Journal of Computational Intelligence Systems

سال: 2023

ISSN: ['1875-6883', '1875-6891']

DOI: https://doi.org/10.1007/s44196-023-00251-4